18 research outputs found

    A Meta-Learning Approach to One-Step Active Learning

    Full text link
    We consider the problem of learning when obtaining the training labels is costly, which is usually tackled in the literature using active-learning techniques. These approaches provide strategies to choose the examples to label before or during training. These strategies are usually based on heuristics or even theoretical measures, but are not learned as they are directly used during training. We design a model which aims at \textit{learning active-learning strategies} using a meta-learning setting. More specifically, we consider a pool-based setting, where the system observes all the examples of the dataset of a problem and has to choose the subset of examples to label in a single shot. Experiments show encouraging results

    Regularized Bundle Methods for Convex and Non-Convex Risks

    Get PDF
    Machine learning is most often cast as an optimization problem. Ideally, one expects a convex objective function to rely on efficient convex optimizers with nice guarantees such as no local optima. Yet, non-convexity is very frequent in practice and it may sometimes be inappropriate to look for convexity at any price. Alternatively one can decide not to limit a priori the modeling expressivity to models whose learning may be solved by convex optimization and rely on non-convex optimization algorithms. The main motivation of this work is to provide efficient and scalable algorithms for non-convex optimization. We focus on regularized unconstrained optimization problems which cover a large number of modern machine learning problems such as logistic regression, conditional random fields, large margin estimation, etc. We propose a novel algorithm for minimizing a regularized objective that is able to handle convex and non-convex, smooth and non-smooth risks. The algorithm is based on the cutting plane technique and on the idea of exploiting the regularization term in the objective function. It may be thought as a limited memory extension of convex regularized bundle methods for dealing with convex and non convex risks. In case the risk is convex the algorithm is proved to converge to a stationary solution with accuracy ε with a rate O(1/λε) where λ is the regularization parameter of the objective function under the assumption of a Lipschitz empirical risk. In case the risk is not convex getting such a proof is more difficult and requires a stronger and more disputable assumption. Yet we provide experimental results on artificial test problems, and on five standard and difficult machine learning problems that are cast as convex and non-convex optimization problems that show how our algorithm compares well in practice with state of the art optimization algorithms

    LSHTC: A Benchmark for Large-Scale Text Classification

    Full text link
    LSHTC is a series of challenges which aims to assess the performance of classification systems in large-scale classification in a a large number of classes (up to hundreds of thousands). This paper describes the dataset that have been released along the LSHTC series. The paper details the construction of the datsets and the design of the tracks as well as the evaluation measures that we implemented and a quick overview of the results. All of these datasets are available online and runs may still be submitted on the online server of the challenges

    Modèle Markovien et programmation dynamique pour l'extraction de contours : application à des images médicales

    Get PDF
    Nous proposons de considérer le problème de l'extraction de contours comme la restauration d'une séquence de points. L'extracteur proposé est un système hybride réseau de neurones - chaîne de Markov qui permet l'introduction dans le modèle de connaissances a priori de haut niveau. Une application à la détection automatique du ventricule gauche du coeur dans des radiographies numériques est entièrement décrite

    Modélisation d'interdépendances et principe de la moyenne Bayésienne des modèles dans le cadre supervisé et non supervisé

    No full text
    Cette thèse porte sur la théorie de l apprentissage statistique et plus particulièrement sur le moyennage Bayésien de modèles. L apprentissage par moyennage Bayésien de modèles (ou BMA pour Bayesian Model Averaging) vise à construire automatiquement des modèles ayant de bonnes performances en généralisation par intégration sur une famille de modèles. L utilisation du principe BMA permet dans certaines conditions un apprentissage optimal, sans sur-apprentissage ni sous-apprentissage. Une seconde problématique a orienté certains de mes travaux et concerne l utilisation du maximum possible de dépendances entre attributs constituant les formes traitées. Naturellement ces deux problématiques sont liées parce qu en cherchant à exploiter plus de dépendances dans les données on attaque le problème de l apprentissage de modèles plus complexes et donc sujets à sur-apprentissage. Durant ma thèse j ai exploré ces deux problématiques en m attaquant à différentes tâches de l apprentissage automatique et pour différents types de données. J ai abordé l utilisation de dépendances entre composantes pour des données en dimension fixe et pour des données séquentielles. En dimension fixe l idée est de prendre en compte les dépendances entre toutes les composantes à travers les dépendances entre tous les k-uplets de composantes pour des valeurs de k limitées. Pour des données séquentielles, j ai proposé des modèles permettant de prendre en compte les dépendances entre toutes les paires d observations. Dans l un et l autre cas les modèles que j ai proposés peuvent être vus comme des extensions de modèles classiques, classifieurs Logistiques pour les données en dimension fixe ou modèles Markoviens pour les séquences. Au-delà de l exploitation massive de dépendances, je me suis intéressé à identifier des situations et des problèmes particuliers pour lesquels l approche BMA est d une part utilisable en pratique, et d autre part pertinente du point de vue du gain obtenu. Cela m a conduit à travailler à tout d abord sur des aspects fondamentaux pour caractériser l approche BMA dans les cadres supervisé et non supervisé. Également j ai développé des algorithmes pour le calcul exact de solutions de type BMA dans des cas particuliers, l apprentissage de classifieurs complexes comme combinaison de classifieurs simples, et l apprentissage d une loi de probabilité a posteriori par intégration sur la famille des modèles de type histogrammes.PARIS-BIUSJ-Physique recherche (751052113) / SudocSudocFranceF

    Classification et détection de figures chartistes par apprentissage statistique

    No full text
    This thesis deals with financial stock market analysis and is especially focused on chart pattern recognition. A chart pattern is a particular shape which has a predictive power; it is defined by theoretical rules. Detecting such patterns is difficult. There is an important gap between theory and practice; real patterns do not perfectly respect the theoretical rules. Moreover, chart patterns definition seems subjective; it depends on the financial expert. Finally, there is no large labeled datasets of chart patterns.We study classification and detection of chart patterns using statistical markovian systems. We focus on generative (Hidden Markov Models) and discriminative (Conditional Random Fields, Hidden CRFs) approaches which are standard technologies for sequential data recognition.We propose various strategies to learn accurate systems with small training sets. The first one blends HMMs and HCRFs in such a way that the modeling ability of the generative models is used to limit the overfitting of the discriminative ones. The second strategy, is a semi-supervised approach which learns jointly a HMM and a HCRF systems; it has some similarity with the well-known co-training algorithm.To design an accurate detection system dedicated to a particular financial expert, we propose a two level system where candidate patterns are first extracted from the financial stock-market using HMMs, and then they are confirmed as chart patterns or rejected by a SVM which uses an enriched representation of patterns. While the HMM system is learn once for every expert, the SVM level is trained with an active learning strategy to take into account the expert s own detection criteria.Cette thèse porte sur l'analyse de cours financiers et plus particulièrement sur la reconnaissance de figures chartistes qui sont des motifs possédant un potentiel prédictif. Bien que leur définition obéisse à des règles théoriques précises, leur détection pose problème. L écart entre la théorie et la pratique est importante ; les figures réelles ne respectent pas parfaitement les règles théoriques. La définition des figures semble subjective et dépendre de l expert financier. Enfin il n existe pas de corpus de données étiquetées.Nous avons étudié la classification et la détection de ces figures à l aide de systèmes statistiques markoviens génératifs (HMMs) et discriminants (CRFs et Hidden CRFs) qui sont des technologies de référence pour le traitement de séquences.Nous avons proposé plusieurs stratégies pour apprendre de façon robuste ces systèmes avec peu de données étiquetées. La première est une hybridation des HMMs et des HCRFs reposant sur l idée d exploiter les capacités de modélisation des HMMs afin de limiter le sur-apprentissage des modèles discriminants (HCRFs). La seconde est une approche semi-supervisée qui emprunte au co-training l idée de l apprentissage conjoint de deux systèmes, l un génératif, l autre discriminant.Afin de concevoir des systèmes de détection performants et adaptés à chaque expert, nous avons conçu un système à deux niveaux dans lequel des motifs d'un cours sont pré-sélectionnés par des HMMs puis confirmés ou infirmés par une SVM opérant sur une description enrichie des motifs. Le modèle SVM est appris par une stratégie d apprentissage actif pour personnaliser le système à un expert particulier.PARIS-BIUSJ-Mathématiques rech (751052111) / SudocSudocFranceF
    corecore